Г

ЗАДАЧА ПРЕДСКАЗАНИЯ МНОГОМЕРНОЙ ПЕРЕМЕННОЙ

Г.С. Лбов, Т.А. Ступина

Институт математики СО РАН, Новосибирск, Россия

Abstract — This work is devoted to problem of prediction multidimensional variable. This problem is generalization of well-known problem of multi-response regression in case of independent and goal features are multidimensional and heterogeneous. For this time such tusk was formulated in work [1].

Пусть имеется генеральная совокупность объектов , для которой определена произвольная вероятностная мера P(). Каждый объект может быть охарактеризован значениями переменных а также значениями так называемых целевых (предсказываемых) переменных то есть каждому путем проведения измерений могут быть сопоставлены значения переменных . Данные переменные могут быть произвольных типов (вещественные, целые, порядковые, номинальные, бинарные).

Рассматриваемая задача состоит в том, чтобы для произвольного объекта из по известным значениям переменных предсказать значения переменных на основе анализа имеющейся эмпирической информации. Заметим, что задачи построения решающей функции распознавания и регрессионной функции являются частным случаем рассматриваемой задачи. Обозначим через множество допустимых значений переменной , через множество допустимых значений переменной ,

Тогда может рассматриваться как точка в пространстве , точка в пространстве , - точка в пространстве . Заметим, что пространство в общем случае является разнотипным и, не теряя общности, может быть разложено в прямое произведение дискретного и непрерывного подпространств, тогда , где .

Поскольку значения всех переменных могут быть измерены для любого , то существует отображение из в , и учитывая существование вероятностной меры в пространстве определяется вероятностная мера .

Введем в пространстве меру следующим образом. Поскольку любая область дискретно-непрерывного пространства может быть представлена как , где - проекция на , - точка из , -соответствующая область в , меру произвольной подобласти естественно положить равной , где - лебегова мера множества .

Предположим, что отображение таково, что существует - плотность меры относительно меры , т.е. для любого измеримого подмножества пространства выполняется

Применяя формулу Байеса, получаем .

Таким образом, представляет собой условную плотность распределения в пространстве при условии, что значения переменных равны .

Под задачей предсказания будем понимать восстановление условной плотности на основе выборки, то есть построение некоторой оценки . Под выборкой будем понимать множество

, где - набор значений переменных, измеренных для объекта случайным образом выбранного из совокупности .

Поскольку даже в случае дискретных характеристик, как правило, далеко не для каждой точки пространства имеются экспериментальные данные, а в непрерывном случае выборочные точки в образуют множество меры нуль, очевидна необходимость экстраполяции экспериментальных данных на другие точки пространства переменных. Поэтому будем полагать условное распределение одним и тем же для всех , принадлежащих области , из некоторого разбиения пространства , Класс - множество таких разбиений, при которых где - интервал, если - переменная с упорядоченным множеством значений, и - произвольное подмножество из , если - номинальная переменная, т.е. переменная с конечным неупорядоченным множеством значений. Распределение для обозначим через .

После того, как фиксировано разбиение , условное распределение может быть восстановлено классическими методами (например, путем аппроксимации гистограммой), поэтому главная проблема состоит в эффективном разбиении на подобласти. Эффективность понимается с точки зрения предсказания по известным . Интуитивно понятно, что эффективность такого предсказания должна зависеть от информативности полученного условного распределения . Обычно в качестве меры информативности распределений используют энтропийную меру, однако данная мера не учитывает метрические свойства переменных и не различает упорядоченные и неупорядоченные шкалы.

Определим меру информативности, свободную от указанных недостатков. При этом под информативностью распределения будем понимать расстояние между данным распределением и равномерным распределением на множестве .

В дальнейшем любые подмножества и будем представлять следующим образом: , ; , .

Критерием качества разбиения множества на подмножеств будем называть величину , где - расстояние между распределениями и равномерным распределением , . Задача состоит в том, чтобы найти такое разбиение , при котором .

Поскольку распределение неизвестно, вместо него будем использовать оценку .

Для этого используется выборка , ; - объем выборки, , , , . На основе выборки необходимо найти решающую функцию , дающую отображение . Оценка качества разбиения множества на подмножеств представляется следующим образом:

Наилучшим разбиением будем считать разбиение, при котором .

Отсюда следует, что при любом фиксированном для каждого подмножества необходимо максимизировать величину . Обозначим через класс подмножеств таких, что , . Очевидно, что чем меньше мощность множества , тем больше оценка расстояния распределения от равномерного распределения . Найдем . Используя нормировку, мощность будет равна следующему выражению: ,

где - проекция множества на , а - множество минимальной мощности, включающей в себя точки , .

Таким образом, чем меньше величина , тем больше расстояние Для фиксированного разбиения решающая функция представляется следующим образом: если , то , Разбиение должно удовлетворять следующему ограничению: , где - некоторый параметр, определяющий надежность предсказания. Данный алгоритм предсказания многомерной разнотипной переменной реализован программно.

Литература

1. Лбов Г.С., Неделько В.М., Восстановление условного распределения на основе экспериментальных данных. \\ Межвузовский сборник “Информатика и процессы управления”, Красноярск 1997, стр. 95-103.

Site of Information Technologies
Designed by inftech@webservis.ru.